查看原文
其他

ICCV&NIPS2019 物体检测之scale问题

孙明 极市平台 2021-09-20

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~


作者:孙明

来源:https://zhuanlan.zhihu.com/p/83310317

本文已经作者授权,转载请联系原作者


在这里介绍一下最近做的两篇关于物体检测的论文,主要解决的问题是scale,前提是不牺牲测试速度。论文地址分别是:

https://arxiv.org/pdf/1909.02225.pdf


(1)通过learning方式学习dilation

https://arxiv.org/pdf/1909.02293.pdf


(2)通过automl的方式搜索dilation


(一)问题


检测里面scale变化非常大,其中我认为解决比较好的方案之一是deformable,通过局部密集采样方式,自适应其变化。但是这用解决问题的方式带来的问题是,速度非常慢,且很难加速。


(二)分析


我们自己重新分解了一下deformable中学习的局部不规则9个采样点,可以把这9个点的变换分解成 中心点的偏移,整个矩形框面积的变换,以及局部形状的变换。发现其中最核心的变化是矩形框的面积,而不是矩形框的形状和中心点。这个也很好理解,矩形框的面积改变的是感受野,矩形框的边缘是感受形状信息。


换句话说,采样的矩形框自由度不需要那么高(不规则),是个矩形就行。什么操作可以改变采样矩形框且不影响速度呢?dilation就行。这个是我们做的第一步分解,使得局部操作可以加速。


但是第二个问题是,这种局部的密集采样还是非常慢的。能不能舍弃这种做法?空间的密集目的是想特征抽取的更好,也就是output特征更好。但是output特征除了在采样数据那边做,也可以在卷积核上做。为了速度,我们做了第二步分解,我们把空间的多样性,分解到卷积核上。具体做法是,分组。不同的分组,采用不同的dilation。最后的特征,对于每个ROI而言,也能看到更大的特征。


(三)浮点的dilation + group


找到了这两步,基本就能解决要解决的问题,局部ROI需要更丰富的特征并不增加耗时。具体的解法可以看论文。试验结果

速度几乎不变,性能提高1.5%以上


(四)进阶版


实际细想就是两个超参,每个卷积的dilation数值和group的分组数。学习的方式难免有局限,得益于强大的搜索算法,我们直接搜索了这两个超参,也算是比较早直接在channel 级别搜索的论文,具体可以看我们的NIPS论文。

channel级别的超参搜索


(五)展望


一切的前提都是速度不变情况下,如何解决问题。这个scale问题还远远没有解决,最近我们也有了新的解法,近期也会放出来。当然除了这个问题,检测还有很多问题。比如检测和分类的NAS有何不同?硬核问题太多了。



-End-


*延伸阅读





目标检测交流群


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可进群。(已经添加小助手的好友直接私信)


△长按添加极市小助手


其他方向如目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等,也可扫码添加极市小助手拉你进群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~

△长按关注极市平台


觉得有用麻烦给个在看啦~  

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存